AI资讯新闻榜单内容搜索-Natural em

Anthropic发现AI「破窗效应」：只是教它偷个懒，结果它学会了撒谎和搞破坏

刚刚，Anthropic 发布了一项新研究成果。今天，他们发布的成果是《Natural emergent misalignment from reward hacking》，来自 Anthropic 对齐团队（Alignment Team）。他们发现，现实中的 AI 训练过程可能会意外产生未对齐的（misaligned）模型。

来自主题: AI技术研报

8797 点击 2025-11-22 15:33